- 快捷搜索
- 全站搜索
工商银行一直以来高度重视数据中心信息系统安全运营保障工作,始终坚持“安全生产运行第一”和“第一时间恢复对外服务”的指导思想,通过技术和管理创新,不断提升数据中心安全生产运行水平和风险防范能力。
构建完备的业务连续性架构
工商银行积极推动数据中心灾备体系和系统高可用性建设,为提高数据中心信息系统运行稳定性和可靠性,保障信息系统出现突发事件后的快速恢复提供有效的技术保障。
1.实现数据中心从灾备向连续性模式转变。按照“同时运行、快速接管”的目标,工商银行在国内同业率先建设“两地三中心”生产运行新架构,并于2011年启动上海同城数据中心建设。2014年6月上海同城数据中心正式投入使用,并实施了全部主机业务和主要开放平台业务从生产中心切换至同城中心,在平稳运行24小时后成功回切,“两地三中心”架构布局全面建成。在工程建设中,工商银行综合利用业务数据异步复制技术、数据文件同步镜像技术,自主设计了联机和批量负载调度、全自动化切换平台和自动化业务补账方案,实现了从传统信息系统灾备恢复模式向双中心并行运行的业务连续模式的转型。
在“两地三中心”模式下,信息系统的连续性运作水平得到大幅提升,当生产中心核心系统发生重大突发事件时,主机业务可以在数分钟内切换至同城中心运行。同时,通过同城中心切换机制的运用,工商银行综合应用版本投产对外的业务影响时间已从原来的3~4个小时缩短为30分钟之内,实现在大部分系统投产时间内仍可以受理客户的ATM存取款、POS消费、B2C支付等基本业务需求。工商银行数据中心灾备体系达到了国际灾备标准SHARE—92定义的七级水平和国务院信息化办公室《重要信息系统灾难恢复指南》六级的高灾备等级标准要求。
2.完善分行重要信息系统灾备架构。工商银行在2012年全面完成分行同城机房建设,实现一级分行核心网络节点以及自助和柜面等业务应用系统在同城两个机房的双活部署,一旦某一级分行的生产机房发生场地灾难事件,即可通过同城机房部署的系统进行应急恢复,其中,辖内80%的柜员能继续提供业务服务,网点对外服务基本不受影响;ATM服务在10分钟内恢复,90%的自助渠道在两个小时内恢复。
3.完善集中式运营业务场地灾备架构。从保障业务连续性运作出发,在积极推进信息系统灾备体系和高可用性建设的同时,为了确保关键业务的连续性运行,工商银行积极推动集中式业务营运中心场地灾备的建设。集中式业务营运中心承担了多种类重要业务的集中处理,当营运中心发生如火灾、停电、楼宇封锁等场地级的灾难事件时,将直接导致相关业务办理中断。工商银行在2011年底完成信用卡、清算、资产托管、金融市场、参数管理、电子银行共6家总行业务集中式营运中心场地灾备建设,当办公场地发生场地级的灾难后,业务人员可以快速转移到备份场地,恢复业务办理。
提升业务连续性管理及应急处置机制
数据中心信息系统的连续性运作是全行业务连续性运作的重要组成部分。工商银行依据监管要求并结合实际建立了涵盖总分行层面的业务连续性管理体系,在业务连续性管理的总体框架下,组织做好数据中心信息系统的连续性运作。
1.建立一体化应急组织体系。全行应急组织体系成员包括总分行行领导以及各专业部门相关负责人,并由应急领导小组、业务应急小组、技术应急小组、应急保障与公关小组组成,各个小组职责分工明确,相互协作顺畅,为突发事件应急处理提供了有效的组织保障。
2.建立涵盖科技和业务的应急预案体系。科技部门制定了《信息系统连续性运作计划》(ITCP)作为总体应急预案,并制定了涵盖主机、开放平台、应用、网络、动力、安全等信息系统各个专业领域的专项应急预案,专项应急预案包括各系统可能出现的故障场景以及启动应急处理的条件,并按照“优先恢复对外服务”的原则,明确各个场景采取的应急操作步骤。
各主要业务部门也制定了10多项业务应急预案,明确在信息系统出现故障情况下业务应急流程。为了在出现突发事件情况下快速恢复对客服务,在相关业务应急预案中明确了手工应急办理常见业务的方法,包括个人取款、存款、汇款、挂失、结售汇,对公现金取款、现金存款、转账、系统内汇划、跨行支付,信用卡应急挂失、应急取现、应急消费、应急授权等,以满足信息系统出现故障情况下客户紧急服务需求,保持业务的连续性运作。
3.建立全行统一的应急管理自动化平台。在组织应急事件处理过程中,可以通过邮件、短信、指令平台等便捷方式将事件影响和应急指令等信息及时发布到全行。此外,工商银行还自主研发了一整套高可用切换自动化工具,实现“一键式”操作,有效提升应急情况下应急恢复的时效性。
突出应急演练的实战性和时效性
为有效应对各类信息系统突发事件,工商银行将应急演练作为一项常年坚持的“规定动作”,并注意演练的突发性和实战性,以更贴近实际生产情况。
1.坚持演练工作例行化。为验证在生产系统发生灾难时应具备的应急恢复处理能力以及全行灾难应急指挥体系,工商银行从2005年开始,每年均开展灾难恢复应急演练。从2009年开始已连续6年采取临时通知方式组织实施数据中心主机业务灾备应急切换和恢复演练;“两地三中心”工程建设完成后,2014年开始将每年采用临时通知方式开展同城切换运行。
2.坚持演练方案标准化。工商银行在信息科技管理制度中对日常应急演练提出了明确要求,年度应急演练计划和演练场景要求覆盖所有重要应用系统和基础设施,包括骨干网络与核心网络系统主备切换、机房发电机带实际负载切换、数据库主备切换、多点接入和双活系统单点故障演练、多网卡聚合服务器单网卡失效等高可用应急场景的演练;演练坚持计划性和突发性、实际演练和桌面演练相结合。通过演练,一方面验证了预案的有效性,另一方面使技术人员特别是值班人员提高了应急操作的熟练程度。
3.坚持科技与业务联动演练。信息系统发生故障后,科技和业务部门联合在故障信息发布、手工应急处理业务和故障恢复后的业务补账处理、故障期间对客户解释口径发布、网点和自助服务区故障公告发布、媒体解释口径发布等各环节进行演练。此外,业务部门每年还根据本专业应急预案单独组织开展多次手工应急演练,对信息系统出现故障情况下通过手工方式为客户提供基本服务等进行演练。
总结和展望
多年来,工商银行积极推动业务连续性管理工作,尤其是“两地三中心”新架构的建成投产,使全行信息系统连续性水平和应急能力有了质的提升。目前,工商银行正在全面推进信息科技新架构转型,充分利用云计算和分布式处理框架,构建以“开放性、高容量、易扩展、成本可控、安全稳定、便捷研发”为特征的全新技术架构,在提高信息系统风险防范能力的同时,为业务快速创新提供更加坚实的基础。
(文章来源:《金融电子化》杂志)
当前,商业银行灾备中心建设与运营主要采用自建、共建和外包三种模式。哪种
央行和银监会对中小银行的灾备布局建设十分重视,构建同城灾备中心,发挥其